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摘 要 : 针对 现 有 面向 大 数据 的 计算 框架 在 可 扩展 性 机 器 学 习 研 究 中 面临 的 挑战 ， 提 出 了 基于 MapReduce 和 Apache 
Spark 框架 的 分 布 式 朴 素 贝 叶 斯 文本 分 类 方法 。 提 出 的 方法 通过 研究 MapReduce 和 Apache Spark 框架 的 适应 性 来 探索 
朴素 贝 叶 斯 分 类 器 (NBC) ， 并 研究 了 现 有 面向 大 数据 的 计算 框架 。 首 先 ， 基 于 朴素 贝 叶 斯 文本 分 类 模型 将 训练 样本 
数据 集 分 为 m 类 。 进 一 步 在 训练 阶段 中 ， 将 前 一 个 MapReduce 的 输出 作为 后 一 个 MapReduce 的 输入 ， 采 用 四 个 
MapReduce 作业 得 出 模型 。 该 设计 过 程 充分 利用 了 MapReduce 的 并 行 优势 。 最 后 ， 在 分 类 器 测试 时 取出 最 大 值 所 属 的 
类 标签 值 。 在 Newgroups 数据 集 进 行 实验 ， 在 所 有 五 类 新 闻 数 据 组 上 的 分 类 都 取得 了 99% 以 上 的 结果 ， 并 且 均 高 于 对 
比 算 法 ， 证 明了 本 文 方法 的 准确 性 。 
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Text classification of big data using distributed naive Bayesian classifier under spark 
framework 


Zang Yanhui!, zhao Xuezhang!, Xi Yunjiang? 
(1. Foshan polytechnic, Foshan Guangdong 528137, China; 2. School of Economics & Management, Guangzhou 510641, 
China) 


Abstract: Aiming at the challenges faced by the existing big data-oriented computing framework in the study of extensible 
machine learning, a distributed naive Bayesian text classification method based on MapReduce and Apache Spark framework is 
proposed. The proposed method explores the Bayesian network classifier by studying the adaptability of MapReduce and Apache 
Spark frameworks, and studies the existing computing framework for big data. First, the training sample data set is divided into 
m classes based on the naive Bayes text classification model. In the training phase, the output of the previous MapReduce is 
used as the input of the next MapReduce, and four MapReduce jobs are used to derive the model. This design process makes 
full use of the parallel advantages of MapReduce. Finally, when the classifier is tested, the value of the class label to which the 
maximum value belongs is fetched. Experiments in the new group’s dataset have resulted in more than 99% of the results on all 
five types of news data sets, and are all higher than the comparison algorithm. Proved the accuracy of the method of this article. 
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1 器 学 


多 个 


0 ”引言 这 些 新 间 题 的 解决 需要 新 颖 的 解决 方案 ， 为 此 ， 诞 生 了 各 

种 新 型 的 适用 于 高 度 分 布 式 和 面向 数据 的 新 计算 框架 。 在 现 有 

可 扩展 性 一 直 是 数据 挖掘 和 机 器 学 习 领 域 的 一 个 重要 的 研 的 提案 中 ，MapReduce 获得 了 巨大 的 认可 ， 成 为 处 理 海量 数据 
究 领 域 0。 为 了 解决 更 大 和 更 复杂 的 问题 ， 算 法 不 断 得 到 改进 集 的 标准 名 。 自 从 MapReduce 开始 以 来 ， MapReduce 在 机 

以 扩大 规模 。 随 着 硬件 的 持续 发 展 以 及 技术 地 不 断 改 进 ， 研 究 习 解 决 方 案 方面 一 直 处 于 积极 发 展 的 阶段 ， 其 中 特定 技术 在 适 
者 面临 着 越 来 越 多 来 自 新 兴 领 域 的 挑战 。 近 年 来 ， 互 联网 经 济 应 框架 方面 获得 了 更 多 的 普及 。 在 文献 [9] 中 提出 了 一 种 

的 崛起 以 及 支付 方式 的 转变 , 为 传统 商业 带 来 了 新 的 发 展 空间 。 分 布 式 阶段 组 成 的 高 效 且 可 扩展 的 kNN 查询 模型 。Apache 

商业 的 进一步 繁荣 带 来 了 存储 海量 数据 的 需求 。 这 种 通常 被 称 Hadoop 是 作为 MapReduce 的 标准 开源 实现 而 建立 的 ， 然 而 
为 大 数据 的 新 数据 现象 为 机 器 学 习 打开 了 一 扇 新 窗口 7]。 Apache Spark 已 经 成 功 地 提出 了 改进 的 数据 抽象 ， 基 于 3 
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的 更 快 的 执行 环境 以 及 友好 的 编程 接口 。 在 文献 [10] 中 提出 了 


1 MapReduce 和 Apache Spark 框架 


基于 Hadoop 框架 的 树 增 广 的 朴素 贝 叶 斯 分 类 方法 ， 将 训练 数 

据 集 分 成 不 同 的 块 ， 然 后 将 它们 分 布 在 可 用 的 计算 节点 上 ， 1.1 MapReduce 框架 

且 取 得 了 较 高 的 分 类 结果 。 然 而 该 方法 计算 成 本 较 高 ， 难 以 ) MapReduce 编程 范例 是 由 Google 于 2003 年 设计 的 大 数据 

泛 推广 。 横向 扩展 数据 处 理工 具 093。 它 被 认为 是 互联 网 上 最 强大 的 搜 
区 | 


本 文 提 出 了 一 种 基于 MapReduce 和 Apache Spark 框架 的 ”索引 擎 ， 迅 速成 为 用 于 通用 数据 并 行 化 的 最 有 效 技术 之 一 。 
分 布 式 朴素 贝 叶 斯 文本 分 类 方法 。 提 出 的 方法 侧重 于 这 些 模型 1 为 MapReduce 数据 流程 。 
的 学 习 阶 段 ， 为 此 本 文 介绍 了 一 个 通用 框架 。 该 框架 描述 了 MapReduce 基于 两 个 单独 的 用 户 定义 的 基 元 : Map 和 
MapReduce 范例 下 朴素 贝 叶 斯 分 类 器 (naive Bayes Classifier， Reduce。Map 函数 以 键 值 ( < key，value > ) 对 的 形式 读 取 原 始 数 
NBO) 的 完整 系列 。 此外, 还 从 理论 和 实践 两 个 方面 讨论 了 这 些 据 ， 将 它们 转换 为 一 组 中 间 的 ( < key, value > ) 对 ， 可 能 是 不 
模型 的 最 佳 特性 和 主要 缺陷 , 其 目的 在 于 找 出 未 来 的 研究 路 线 ， 同类 型 的 。 键 和 值 类 型 都 必须 由 用 户 定义 。 然 后 ，MapReduce 
以 专门 设计 的 算法 来 解决 这 个 问题 。 在 Newgroups 数据 集 进行 ”将 与 同一 中 间 键 关联 的 所 有 值 合 并 为 列表 ( 混 洗 阶段 )。 最 后 ， 
实验 ， 取 得 了 99% 以 上 的 结果 ， 并 且 均 高 于 对 比 算 法 。 证 明了 Reduce 函数 从 映射 中 获取 分 组 输出 并 将 其 聚合 为 一 组 较 小 的 
本 文 方法 的 准确 性 。 对 。 这 个 过 程 可 以 如 图 1 所 示 进 行 模式 化 。 这 个 透明 且 可 扩展 
的 平台 自动 处 理 分 布 式 集群 中 的 数据 ， 从 而 减少 用 户 的 技术 
节 ， 如 数据 分 区 、 容 错 或 作业 通信 。 


数据 映射 混 洗 降 维 


图 1 MapReduce 数据 流程 
MapReduce 的 主要 潜力 是 它 提 出 的 计算 抽象 ， 其 中 整个 处 。” ”被 认为 能 够 解决 Hadoop 的 缺点 。Spark 是 作为 Hadoop 生态 系 
-3 理 被 划分 成 更 小 的 任务 类 型 Map 和 Reduce， 沿 着 集群 均匀 分 。 统 的 一 部 分 引入 的 ， 它 则 在 与 Hadoop 合作 ， 特 别 是 通过 使 朋 
布 和 处 理 。 从 业者 只 需 负 责 提供 这 两 个 功能 ， 避 免 将 处 理 适 配 。 其 分 布 式 文件 系统 。 该 框架 提出 了 一 套 超越 标准 MapReduce 的 
到 群集 的 底层 架构 或 数据 的 性 质 。 该 框架 为 并 行 数据 处 理 提 供 ” 内 存 原 语 ， 目 的 是 在 分 布 式 环境 中 更 快速 地 处 理 数据 ， 速 度 比 
了 一 个 高 度 可 扩展 的 容错 环境 .MapReduce 过 程 遵 循 两 步 过 程 ， ”Hadoop 快 100 倍 。 
其 中 集群 的 体系 结构 以 主 /从 方案 进行 组 织 : 一 个 主 节点 配置 作 Spark 是 一 种 基于 弹性 的 分 布 式 数据 集 (resilient distributed 
业 ， 并 将 计算 任务 和 输入 数据 分 布 在 将 执行 处 理 的 工作 节点 集 ”datasets, RDD)t7, 这 是 一 种 用 于 以 透明 方式 并 行 计算 的 特殊 类 
合 上 。 首 先 ， 输 入 数据 被 分 割 成 较 小 的 分 区 或 块 ， 它 们 分 布 在 ”型 的 数据 结构 。 这 些 并 行 结构 让 人 们 坚持 并 重用 结果 ， 并 将 其 
工作 节点 中 ， 作 为 给 定数 量 的 Map 任务 的 输入 。 存在 内 存 中 。 此 外 ， 还 可 以 管理 分 区 来 优化 数据 放置 ， 并 使 
1.2 ”Apache Spark 框架 用 大 量 透明 基 元 操作 数据 。 所 有 这 些 功 能 都 允许 用 户 轻松 设计 
Apache Hadoop 是 MapReduce 在 商业 集群 上 大 规模 处 理 和 新 的 数据 处 理 管线 。 
存储 的 最 流行 的 开源 实现 0n449。 由 于 其 性 能 、 开 源 特性 、 安 装 可 扩展 的 机 器 学 习 库 (MLlib) 建 立 在 Spark 之 上 ， 这 要 归功 
设施 和 分 布 式 文件 系统 (Hadoop 分 布 式 文件 系统 , HDFS), 该 框 ” 于 其 对 迭代 过 程 的 隐 含 适用 性 。 当 前 版 本 的 MLlib(v1.6.0) 包 含 
架 在 许多 领域 的 应 用 已 经 非常 普遍 ,尽管 Hadoop 和 MapReduce 大 量 的 标准 学 习 算 法 和 统计 工具 ， 涵 盖 了 知识 发 现 过 程 中 的 许 
非常 受 欢迎 ， 但 在 许多 情况 下 ， 如 在 线 或 迭代 计算 ， 都 显示 出 。 多 重要 领域 , 如 分 类 、 回 归 、 聚 类 、 优 化 或 数据 预 处 理 。 MLlib 
不 适合 。 无 法 通过 内 存 原 语 重 用 数据 ， 这 使 得 Hadoop 在 很 多 是 MLbase 平台 的 关键 组 件 。 它 提供 了 一 个 高 级 API， 使 用 户 
机 器 学 习 算法 中 的 应 用 变 得 不 可 行 。 更 容易 连接 多 个 机 器 学 习 算 法 。 但 是 这 个 平台 并 不 包含 贪 禁 学 
Apache Spark 是 一 种 用 于 大 规模 数据 处 理 的 新 颖 解决 方案 ，“ 习 算法 ， 如 KNN 算法 。 
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更 具体 地 说 , 除了 机 器 
法 所 遵循 的 水 平 策 


省 外 ， 本 文 还 定义 了 一 种 基本 的 


学 习 中 大 多 数 MapReduce 自 适 应 算 
行 计算 垂 


直 化 方法 。 


可 伸缩 性 。 


这 种 垂直 策略 可 以 通过 智能 程序 进一步 扩展 ， 
衡 不 同 垂直 Map 任务 之 间 的 数据 复制 , 从 而 优化 高 维 域 算法 的 


根据 最 先进 的 Apache Spark 计算 框架 ， 
的 特定 实现 。 该 软件 已 经 过 大 量 不 同 的 问题 基准 测试 ， 


以 平 


己 经 提出 了 此 框架 


讨论 


了 许多 性 能 指标 。 除 了 此 基准 测试 之 外 ， 还 测试 了 计算 体系 结 


构 的 几 种 配置 ， 以 提供 本 文 提议 的 可 伸缩 性 属性 的 总 体 概 述 。 
图 2 展示 了 Spark 运行 过 程 中 RDD 中 的 数据 转换 和 操作 。 
原生 数据 空间 
Scala 集 合 数据 
sw | 
(e.g.HDFS) Scal a 标量 
| f/f 党 Ul 
输入 算 子 y 一 一 NN 
textFile、 eA | 
parallelize 等 | 
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2 ” 贝 叶 斯 网 络 分 类 器 


2.1 符号 表示 


图 2 Spark 运行 过 程 中 RDD 中 的 数据 转换 和 操作 


给 定 离散 预测 随机 变量 的 向 量 A={XX,.…,X,} 和 类 变量 C ， 


ceQ={0,..,0} ， 本 文 


{(X0,c0),.…,(X”,c")} 的 


希望 从 包含 m 个 标签 化 示例 
训练 集 D 中 推导 出 一 个 模型 ， 其 中 


X=(xj,.…X)。 表 1 列 出 了 本 研究 中 使 用 的 不 同 符号 注释 。 
和 1 本 文中 使 用 的 不 同 符号 元 素 的 总 结 
D 训练 集 
D, 训练 数据 的 一 个 子 集 
n 预测 器 属性 的 数量 
m 训练 数据 中 示例 数量 
A 预测 特征 或 属性 的 集合 
Vv 每 个 属性 对 应 值 的 平均 数量 
Qc ={c 类 变量 的 域 
了 类 的 数量 
X, 和 中 第 ;个 属性 的 值 
pa(X,) 给 定 的 BN 上 XX, 的 一 组 父 代 


2.2 ” 贝 叶 斯 网 络 分 类 器 


在 其 他 受 欢 迎 的 监督 分 类 模型 中 ， 近 年 来 基于 贝 叶 斯 网 络 


减 艳 浑 ， 等 : 


的 分 类 模型 越 来 越 流 行 。 
多 来 估计 p(C|X); 且 C 
概率 (MAP) 的 值 we : 


c* =argmax p(c| X) =argmax p(X,c) 


贝 叶 斯 网 络 (Bayesian 
可 以 让 本 文 有 效 地 表示 和 


乍 期 于 


IV 合 


Spark 框架 下 利用 分 布 式 NBC 的 大 数据 文本 分 类 方法 


从 概率 方法 来 看 ， 希 望 给 定 一 个 例子 
e Q。。 贝 叶 斯 分 类 器 将 选择 最 大 化 后 


(D) 


network, BN) 是 一 个 概率 图 形 模 型 ， 
操纵 概率 分 布 。 它 由 两 个 部 分 定义 : 


已 由 两 个 部 分 定义 : 一 个 
构 9 ， 
用 来 编码 节点 之 间 的 依赖 
码 关 于 图 中 编码 的 变量 和 
图 pa(X,) 中 的 每 个 变量 


下 


有 向 无 环 图 (V,E) 表示 的 图 形 结 


其 中 是 一 组 表示 A 中 变量 的 节点 ，E 是 一 个 边 集合 ， 


关系 ; 以 及 一 组 数字 参数 9 ， 
依赖 关系 的 定量 信息 。 有 具体 地 ， 对 于 
Xies4 及 其 父 集 、 条 件 概率 分 布 表 


(CPT) p(X, 
恢复 由 于 马尔 可 夫 规 则 而 


忆 (X 


pa(X,)) 被 存储 。 这 种 


BN 编码 的 表示 可 以 用 于 
导致 的 联合 概率 分 布 : 


x,)=T [p(X pa(X,)) O) 
i=1 


由 于 贝 叶 斯 网 络 形式 


有 良好 的 数学 基础 和 预测 模型 的 能 


力 , 所 以 被 广泛 用 于 人 工 智 能 领域 的 许多 任务 。 然 而 一 般 的 BN 


模型 已 证 明 对 监督 分 类 问 


题 不 具有 竞争 力 。 出 于 这 个 原因 ， 已 


经 提出 了 具体 的 模型 ， 其 


中 BN 的 结构 适合 于 处 理 这 种 特定 情 


况 ， 通 常 将 类 变量 视 为 
模型 通常 被 称 为 贝 叶 斯 网 
域 的 最 先进 方法 。 


kt 有 更 重要 的 依赖 性 角色 的 节点 。 这 种 


络 分 类 器 (BNC)， 


被 认为 是 许多 领 


也 许 最 常见 的 BNC 模型 是 流行 的 朴素 贝 叶 斯 ONB) 分 类 器 ， 
其 中 4 中 的 所 有 预测 特征 被 认为 是 独立 于 C 类 的 。 尽 管 这 是 一 


个 很 强 的 假设 , 在 实际 数据 中 很 少 成 立 。 NB 分 类 器 的 性 


被 证 明 对 许多 问题 具有 竞 
从 业 人 员 的 合适 人 选 。 这 
的 结构 ， 所 以 没有 必要 从 
训练 NB 分 类 器 并 根 


的 空间 复杂 性 。 


似 然 估 计 (MLBE) 算 法 ， 以 及 诸如 拉 普 拉 斯 的 平滑 策略 
QO(nm) 的 计算 复杂 度 和 O(nazF) 的 空间 复杂 度 , 这 也 是 所 得 模型 


能 已 经 
争 力 ， 并 且 由 于 其 高 效 的 训练 是 许多 
种 独立 性 假设 为 模型 定义 了 一 个 固定 


训练 数据 中 引入 相关 性 。 
据 数据 估计 其 参数 ， 甚 中 使 用 的 最 大 


有 


2.2.1 树 增 广 的 朴素 贝 叶 斯 
树 增 广 模型 允许 每 个 预测 属性 依赖 于 除了 该 类 外 的 额外 变 


量 来 放宽 条 件 独立 假设 。 


为 了 选择 这 种 特定 的 相关 性 ， 提 出 了 


一 种 结构 学 习 算法 ， 通 过 


条 件 互信 息 (CMD 来 构建 最 大 生成 树 : 


MXN 0- 对 


p(X, X), 


ceQc Nedx, xsGOx j 


p(x,xil ©) ©) 


1 ea 
3 opG D 


旦 获得 树 ， 就 通过 任意 选择 
定位 边 来 构建 DAG; 最 后 ,类 变量 作为 公 


个 根 节 点 并 按照 拓扑 顺序 
{的 父 项 添加 到 所 有 


节点 。 该 算法 需要 (mn?) 的 计算 复杂 度 来 计算 每 对 属性 的 


CMI， 为 此 构建 一 个 空间 


复杂 度 为 OUn272) 的 三 维 表 。 构 建 最 


大 生成 树 的 计算 复杂 度 为 O01ogn) 。 模 型 的 参数 化 学 习 可 以 
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录用 定稿 
计算 具有 O(nw) 复杂 度 的 所 需 概率 表 ; 得 到 的 TAN 分 类 器 需 


要 空间 复杂 度 为 OUnr2) 的 存储 。 
2.2.2 -依赖 估计 量 

依赖 估计 可 以 看 做 是 前 面 想法 的 推广 ， 其 中 每 个 预测 变 
量 的 模型 中 允许 有 多 个 个 附加 父 项 。 该 算法 可 以 探索 更 广泛 
的 分 类 器 ， 从 大 开始 ， 如 果 大 =0 ， 随 着 大 的 增加 ， 朝 向 全 BN 


有 IV 己 FA 本 
减 艳 逻 ， 等 : Spark 框架 下 利用 分 布 式 NBC 的 大 数据 文本 分 类 方法 


8@8Q XeS， 其 中 ， 列 联 表 #,(S) 将 @Qx 中 定义 的 每 个 可 
能 配置 的 出 现 次 数 存储 在 给 定数 据 集 刀 中 。 
学 习 一 种 特定 类 型 的 BNC 需要 计算 给 定数 量 的 列 联 表 ， 
这 些 列表 是 为 一 组 变量 吾 ={S,,.,S,} 定义 的 。 例 如 学 习 朴 素 贝 
叶 斯 分 类 器 需要 估计 每 个 属性 和 类 的 计数 ， 因 此 估计 计数 的 变 


模型 。 分 类 器 的 结构 通过 三 步 算 法 学 习 ， 该 算法 也 依赖 于 互信 
息 ; 


LE 


在 预测 属性 2 
构建 排名 o 。 


间 通 过 它们 的 互信 息 与 类 别 变量 MI(X,C) 


MI(X| O = _alogC_2eac) ) 14 
0 0= 5 BP pos CL) (0) 


对 于 每 个 属性 Xx, ， 本 文 计算 条 件 互 信息 MI(.,X,|C)， 给 
出 了 在 c 之 前 的 属性 子 集 的 类 别 : {X,..,X -1 。 然 后 将 依赖 
性 最 高 的 最 佳 大 个 属性 作为 和 的 父 项 。 

最 后 ， 类 变量 C 被 添加 为 所 有 预测 属性 的 父 项 。 

学 习 kBD 分 类 器 的 网 络 结构 具有 CUzzm) 的 计算 复杂 度 和 
QO(Ivn7) 的 空间 复杂 度 ， 因 为 它 还 构建 三 维 表格 。 计算 该 特定 
网 络 的 CPT 需要 OnGm+v*))， 并 且 需 要 空间 复杂 度 为 
OJnv*l) 。 
2.2.3 平均 kk 依赖 估计 量 

平均 k- 依 赖 估 计量 (AkDE) 背 后 的 思想 与 以 前 的 略 有 不 同 ， 
而 不 是 从 NB 分 类 器 学 习 增 广 结构 ， 通 过 定义 固定 结构 简单 模 
型 的 集合 来 避免 这 种 代价 高 昂 的 操作 。 其 中 ， 对 于 每 个 模型 ， 
所 有 属性 都 依赖 于 类 以 及 被 称 为 超级 父亲 的 附加 属性 。 对 于 
大 =1 的 值 AkDE 分 类 器 由 nn 个 SPODE 组 成 ， 每 个 SPODE 
有 不 同 的 作为 超 父 亲 的 这 < A 属性 。 分 类 是 通过 平均 集合 中 模 
型 的 单独 预测 而 获得 的 。 

学 习 一 个 AkDE 分 类 器 需要 计算 一 个 上 K+2 维 表 来 估计 所 


笛 的 参数 计算 复杂 度 为 Out， 空间 复杂 度 为 Cj mw ， 


3 ”文本 分 类 


3.1 分布 式 朴素 贝 叶 斯 网 络 分 类 器 

根据 之 前 的 分 析 , 所 描述 的 算法 可 以 找到 一 个 共同 的 问题 : 
学 习 过 程 的 主要 计算 负担 (结构 或 参数 ) 是 由 训练 数据 计算 多 维 
列 联 表 造成 的 。 如 果 本 文 使 用 MLE 等 频率 方法 ， 所 描述 的 度 
量 MI 和 CMI 都 需要 以 与 BN 模型 参数 学 习 相 同 的 方式 来 估计 
概率 分 布 .计算 这 些 列 联 表 是 复杂 度 为 O(nt) 的 算法 中 要 求 最 


量 集 将 为 Y={S,={X,C}VX eA}。 在 以 前 的 工作 中 ， 提 出 了 
用 于 学 习 特 定 模型 的 MapReduce 算法 。 然而, 为 了 定义 覆盖 所 
有 提议 的 BNC 算法 的 通用 框架 , 可 以 建立 一 个 通用 模式 。 从 现 
在 开始 ， 本 文 将 以 这 种 普遍 的 观点 提出 本 文 的 问题 ， 目 的 是 定 
义 一 个 通用 的 程序 来 学 习 任何 描述 的 模型 ， 稍 后 ， 本 文 将 能 
实例 化 此 框架 以 匹配 特定 的 算法 。 该 通用 程序 策略 基于 计算 给 
定 的 一 组 属性 组 合 yqy 的 列 联 表 , 该 列表 将 根据 所 选择 的 特定 模 
型 进行 设置 。 


计算 大 量 数据 的 这 种 列 联 表 格 是 MapReduce 范例 中 自然 


se 


存在 的 问题 。 一 般 来 说 ， 本 文 可 以 确定 两 种 不 同 的 策略 来 定义 
一 个 并 行 方案 来 获得 给 定 一 组 属性 /类 组 合 的 计数 , 其 中 每 个 策 
略 都 则 在 并 行 化 可 伸缩 性 问题 的 不 同 组 件 。 


水 平 并 行 : 首先 将 训练 数据 集 分 成 不 同 的 块 ， 然 后 将 它们 
的 计算 节点 上 。 计 算 节 点 对 每 个 数据 块 和 属性 组 合 
Se 中 部 分 计算 列 联 表 。 最后， 可 以 收集 和 汇总 部 分 分 布 以 恢 
复 整个 数据 集 的 全 部 分 布 。 
垂直 平行 : 旨 在 分 配 yp 中 不 同 子 集 的 计算 。 该 策略 适用 于 
存在 大 量 属 性 的 高 维 域 ， 从 而 使 模型 的 大 小 随 着 多 项 式 复杂 度 
而 增长 。 在 这 些 情况 下 ， 数 据 集 的 简单 水 平分 布 意 味 着 在 收集 
不 同 的 部 分 计数 时 会 产生 大 量 开销 ， 因 此 ， 即 使 与 前 一 种 方法 
结合 使 用 ， 也 可 以 使 用 垂直 并 行 性 。 这 是 通过 将 每 个 应 急 表 计 
算 为 一 个 单独 的 并 行 任务 来 完成 的 。 该 策略 涉及 根据 不 同 子 集 
Se 平 的 数据 集 的 垂直 分 布 ， 并 且 由 于 子 集 可 能 重合 ， 所 以 采 
j 这 种 复杂 的 组 合 问题 以 最 小 化 数据 复制 ， 并 确保 跨 不 同 节点 
的 计算 平衡 。 
3.2 ”朴素 贝 叶 斯 文本 分 类 模型 
根据 之 前 的 定义 来 估计 训练 数据 集 Pp 上 的 特定 数量 的 属 
性 子 集 平 ={S,,.…,S,} 的 列 联 表 。 水 平 策略 通过 将 数据 划分 为 块 
{D,.…,D,jh<m， 理 想 情 况 下 它 将 分 配给 4 个 Map 任务 。 这 
些 任务 中 的 每 一 个 计算 可 用 本 地 块 D ,以 及 每 个 子 集 Sj e 平 的 
部 分 列 联 表 #(S),) 。 然后 ,每 个 映射 任务 为 每 个 子 集 发 出 一 组 
键 值 对 (S,#(S,)) ， 并 将 它们 与 它们 的 相应 分 布 相关 联 。 
在 Reduce 阶段 , 这 些 对 将 按照 它们 的 键 (代表 属性 子 集 ) 进 
行 分 组 并 发 送 到 相应 的 Reduce 任务 ， 甚 中 理想 的 任务 数 为 ，， 


Se 


高 的 部 分 ， 其 中 m 对 应 于 读 取 完 整训 练 数 据 ， 并 且 K+1 与 这 样 
的 表 的 维度 相对 应 ， 即 估计 NB 分 类 器 的 参数 需要 学 习 涉 及 每 
个 属性 (上 =1) 和 类 的 二 维 表 ， 而 对 于 AIDE 分 类 器 ， 需 要 三 维 
表 ， 涉 及 每 对 属性 ( =2 ) 和 类 。 

一 般 来 说 , 这 些 列 联 表 可 以 通过 给 定 属性 集合 Sc AU{C} 
的 不 同 配置 中 的 直方 图 或 频率 计数 分 布 来 表示 。 本 文 将 计算 子 
集 S={X,.….,X,,C} 中 属性 的 联合 状态 集 的 每 个 出 现 的 频率 


每 个 子 集 一 个 。 Reduce 阶段 并 行 聚 合 不 同属 性 子 集 的 部 分 分 布 ， 
发 出 包含 相应 子 集 及 其 为 完整 数据 集 计算 的 完整 列 联 表 的 新 
键 一 值 对 。 通过 为 提供 特定 范围 的 属性 子 集 ， 以 前 的 框架 可 
以 实例 化 到 任何 描述 的 BNS 中 。 

将 训练 样本 数据 集 分 为 m 类 ， 记 为 C={C,C,,.…,C,}。 而 
事件 C, 类 发 生 的 先 验 概率 则 用 P(C,) 表示 ,， 且 P(C,)>0, 其 
属于 C, 类 的 条 件 概率 是 P(di|C,) 。 那 么 ， 对 于 任 一 新 文档 : 


7 


其 中 : w 为 特征 词 ,k= 


di= (Ww Wy ) 3 i=1,2,...,1 


1,2,.…,|V|; 则 |vV| 表示 特 


V 表示 特征 词 的 集合 。 


贝 


1 叶 


斯 公式 计算 的 C, 类 的 后 验 概率 表示 为 


P(C, | ai) 三 a Ci)) 


P(C))P(wlC,) 


k=1 


4 ”实验 评估 


本 


文 针 对 现 有 方法 在 可 扩展 性 


提出 了 


2 


叶 斯 文 


MapReduce 和 Apache Spark 框架 的 适应 性 


类 器 。 
4.1 
本 


本 分 类 方法 。 


机 器 学 习 研 究 中 
车 于 MapReduce 和 Apache Spark 框架 的 分 布 式 朴素 贝 
提出 的 方法 关注 监督 分 类 问题 


(5) 


征 词 的 总 个 数 ; 


(6) 


， 通 过 研究 


文 将 使 用 


来 探索 贝 叶 
为 了 证 明 提出 方法 的 有 效 性 ， 进 行 了 实验 验证 。 
运行 环境 
个 主机 和 六 个 从 节点 组 成 的 计算 机 集群 ， 


斯 网 络 分 


每 个 节点 配备 双 Intel Xeon E5-2609v3 1.90 GHz 六 核 处 理 器 和 


64 GB 


在 


件 二 统 ， 


RAM。 


Cloudera CDH 5.5 分 发 管理 。 


每 个 工作 节点 都 在 4xl TB 磁盘 上 运 


a 


云 行 HDFS 文 


独立 部 署 中 ，Spark 1.6.0 中 选择 MapReduce 环境 。 本 文 


提供 不 同 数量 的 资源 来 启动 集群 的 不 同 配置 ， 


架构 


布局 的 算法 行为 。 


4.2 分 类 器 训练 与 测试 


本 
联 表 的 


NB 分 类 


以 测试 不 


文采 用 四 个 MapReduce 作业 得 


出 模型 。 


需要 设 


多 维 


拓扑 结构 ， 


通过 正确 识别 下 来 计算 。 


在 这 种 情况 下 ， 


器 对 每 个 属性 和 类 别 编 码 条 伯 


概率 ， 由 此 定义 由 子 集 


亚 !={S; ={X,CJYX e A} 表示 的 具有 复杂 度 的 二 维 表格 。 


其 中 三 
指 类 标 
计 训 练 


值 : 第 二 个 MapReduce 根据 表 2 的 输出 文件 ， 计 


的 词 频 


个 MapReduce 的 输出 
签 即 C, ? token 是 特征 词 ， 即 Ws 第 二 个 


集中 出 现 w 的 次 数 , 计算 每 类 中 每 个 特 和 


情况 如 表 2~4 所 示 。 


表 中 的 1abel 
MapReduce 统 


E 词 的 词 频 (TF) 


逆向 文件 频率 (TFIDF) 值 。 
待 计算 完毕 后 


， 将 


按 照 公 


自动 删除 第 一 个 MapReduce 
featureCount 、wordFrep 、termDocCount 三 个 文件 。 


MapReduce 


> log[ 


算 每 个 特征 词 


式 


(TFIDF +1.0)/x(sigmak+VocabCount)] 对 表 3 的 两 个 


广 F; vv 人 A 人 让 甘 昌 二 
ChinaX Ivt FE 其 


减 艳 逻 ， 等 ; Spark 框架 下 利用 分 布 式 NBC 的 大 狐 据 文 玉 分 


_WT., label, token 
rs 


1 Trainer-tfldf TFIDF 值 


特征 词 总 和 


2 Trainer-vocabCount 


表 4 
输出 


1 Sigma_j 


第 三 个 MapReduce 的 输出 情况 


filename filename value 


key 
.SJ,token 每 个 特征 词 的 TFIDF 数量 


每 类 中 各 特征 词 TFIDF 总 
和 
的 TFIDF 总 数 


多 Sigma 天 Japel 


3 Sigma kSiema 7} _SJSK 特征 词 


面临 的 挑战 ， 


在 之 前 的 计算 基础 之 上 ， 最 后 mapper 的 返回 值 是 测试 文 
档 则 属于 C, 类 , 与 在 其 他 类 下 的 值 进行 比较 , 取出 最 大 值 所 属 
的 类 标签 值 。 
4.3 结果 分 析 

实验 数据 将 采用 来 源 于 UCI KDD Archived 的 20 个 
居 集 08-20。 在 训练 时 ， 本 实验 使 用 了 Newgroups 
数据 集中 所 有 类 的 文档 ,在 测试 时 随机 抽取 了 politics、 basetball、 
五 类 新 闻 数 据 组 。 这 些 真实 
的 不 同属 性 ， 总 结 如 表 5 所 示 。 


Newgroups 数 ] 


religion、hardware 和 motorcycle 


的 数据 集 提供 了 关于 可 伸缩 性 


文件 进行 计算 ， 并 输出 结 
表 2 第 一 个 MapReduce 的 输出 情况 
filename key value 
wordFrep _WT,label,token 类 C, 中 特征 词 w 的 TF 值 
termDocCount _DF, label,token 类 C, 中 出 现 Ww 的 文档 数 
featureCount _FC,token 训练 集中 出 现 WwW 的 文档 总 数 
docCount _LC 训练 集中 的 文档 总 数 
表 3 第 二 个 MapReduce 的 输出 情况 
filename ”输出 filename key value 


表 5 实验 中 包含 的 真实 数据 集 的 属性 
名 称 属性 数 (n ) 示例 数 (m ) 大 小 / GB 
politics 134 SOM 1.22 
basetball 235 23M 2.11 
religion 256 12M 0.97 
hardware 631 4M 5.26 
motorcycle 2000 S00K 1.90 
分 类 结果 对 比如 表 6 所 示 。 本 文 方法 在 所 有 五 类 新 闻 数 据 
组 上 的 分 类 准确 性 都 取得 了 99% 以 上 的 结果 ， 并 且 均 高 与 对 比 
算法 。 实验 体 现 了 本 文 提出 的 基于 MapReduce 和 Apache Spark 
框架 的 分 布 式 朴素 贝 叶 斯 文本 分 类 方法 的 准确 性 。 
表 6 分 类 结果 对 比 
类 标签 ”测试 文档 数 / 篇 ey 
文献 [9] 文献 [10] 本 文 方法 
politics 234 218(93.16%) 229(97.86%) 234(100%) 
basetball 256 246(96.09%) 251(98.05%) 255(99.61%) 
religion 167 155(92.81%) 156(93.41%) 166(99.40%) 
hardware 212 201(94.81%) 206(97.17%) 211(99.53%) 
motorcycle 145 141(97.24%) 142(97.93%) 145(100%) 
5 ”结束 语 
本 文 的 重点 是 大 数据 技术 ， 如 MapReduce， 提 出 了 一 个 适 
合 当前 云 计 算 和 高 性 能 分 布 式 编程 范例 的 解决 方案 ， 还 分 析 了 
最 流行 的 BNC 模型 及 其 相应 的 学 习 算 法 。 本 文 引 入 了 一 个 通 


用 的 计算 框架 ， 可 


以 通过 实例 化 来 学 习 任 何 所 考虑 的 模型 ， 
将 大 量 数据 用 大 量 示例 或 属性 作为 目标 ， 从 而 在 广泛 的 问 
题 上 增加 弹性 和 可 伸缩 性 。 还 扩展 了 本 文 的 建议 ， 提 出 了 不 同 
的 计算 集群 分 布 的 策略 。 在 Newgroups 数据 集 进 行 实验 ， 与 对 
比方 法 相 比 ， 本 文 方法 取得 了 比较 优异 的 结果 ， 证 明了 本 文 方 


ol 


法 的 准确 性 。 
本 文 还 从 理论 和 实践 两 个 方面 讨论 了 这 些 模型 的 最 佳 特性 
和 主要 缺陷 ， 其 目的 在 于 找 出 未 来 的 研究 路 线 ， 以 专门 设计 的 
算法 来 解决 这 个 问题 
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